查看原文
其他

人物|詹坤林:语音语义技术打开58同城的另一扇门

58AILab 2022-03-15

The following article is from 58技术 Author 詹坤林

7月25日-26日,汇集了2020大数据、AI最新技术实践的线上大会DataFunCon成功举行。本次大会由20余位知名专家学者出品,设置了19场专题分享,有超过90位一线资深技术专家参与分享。更汇集了1500余家企业,超过11000名技术管理者、大数据及算法工程师报名参加本次DataFunCon线上大会。

58同城AI Lab负责人詹坤林受邀在本次大会智能语音专场分享了《58同城智能语音分析平台技术揭秘》。






背景

58同城生活服务平台连接着海量的C端用户和B端商家,B端商家可以在平台上发布房源、车源、职位、家政服务等各类信息(我们称之为“帖子”),平台将这些帖子分发给C端用户供其浏览。平台上的B端商家来自于房产中介、中小企业、二手车商等客户,58同城的销售人员会向这些客户做营销推广,吸引客户成为58商家,当客户成为58商家后,平台会为其分配专属客服人员以提供优质服务。在这样的业务模式下,语音是用户之间的重要沟通媒介,C端用户和B端用户之间可以通过电话、音视频通话建立连接,销售和客服人员会通过呼叫中心与客户进行电话沟通,这些场景下会产生海量的语音数据,这些语音数据具备巨大的挖掘价值。我们打造了一套智能语音分析平台(代号“灵犀”),基于自主研发的语音识别技术将通话录音转换为文本,使用自然语言理解技术对通话文本进行挖掘,并进一步构建了语音质检、用户画像等应用

总体架构

语音分析平台总体架构如下图所示:最底层的基础服务层提供语音语义计算能力,语音处理包括单声道录音说话人分离和自动语音识别,自然语言理解包括文本分类、文本聚类、序列标注等基础能力。在基础服务层之上是针对不同业务需求的文本挖掘,如说话人角色识别、语音质检标签挖掘、用户画像标签挖掘和通话文本摘要等。AI任务离不开人工标注,我们研发了一套标注系统供标注人员操作,如文本和语音数据标注、算法效果评估、Case运营等。在接入层上,我们提供一整套Web接入平台给用户,用户可以在平台上定制标签、注册API、导出数据等,用户可以基于平台输出的标签数据搭建上层智能应用。

语音语义技术实现

语音和NLP是智能语音分析平台的两大核心能力,语音技术落地有一定门槛,NLP技术落地相对容易,从2019年初我们开始构建智能语音分析平台到现在,NLP一直采用自研,而语音技术在初期是采买的第三方语音厂商技术。我们自2019年10月开始自研语音识别和说话人分离,2020年6月份自研技术效果超过了第三方,最终使用自研技术替换了第三方,为公司节约了大量采购成本。

我们的语音数据来源于58同城各垂直化业务场景,主要以8kHz电话语音为主,网络音视频通话场景下的16kHz语音数据较少,业界语音技术厂商的通用语音识别引擎大部分以16kHz为主,8kHz为辅,并且没有捕获58同城垂直化业务场景特性,直接使用通用语音识别引擎不会取得很好的识别效果。语音识别技术和数据强相关,只有积累了一定量级的业务场景数据才能发挥其效果,初期我们将58场景下的语音数据提供给采买的第三方语音厂商,第三方基于这些数据优化模型后效果远超业界通用语音识别引擎。

自研语音识别技术必须要有足够的语音数据做支撑,我们自主研发了语音数据标注系统,采用Wavesurfer.js插件可视化音频,支持标注、质检和数据统计等功能。为提高标注效率,我们利用第三方语音识别接口对语音文件进行转写,将转写文本展示在系统中,标注人员标注时只需要对文本进行改写。项目初期我们自主搭建了标注团队来标注数据,标注任务的人效是人均单日1小时有效录音,质检任务的人效是人均单日1.5小时录音,这里也可以将数据标注任务外包给第三方数据标注厂商,相比自主搭建标注团队会更加灵活和节约成本。

在2009年之前语音识别主要使用HMM-GMM模型,从2009年开始深度学习算法逐渐发挥优势,HMM-DNN模型成为主流,发展至2015年,端到端的语音识别模型开始出现,相比先前的模型包括特征提取、声学模型、语言模型、解码器多个模块,端到端的模型从输入到输出只有一个算法模型,输入是语音信号,输出是识别的词序列结果。在传统HMM-DNN模型上,我们采用了Kaldi开源框架里实现的Chain Model,它也是Kaldi之父Daniel Povey推崇的模型,被大家广泛使用并取得了稳定的效果。在端到端模型上,我们实践了ESPnet开源框架里实现的结合Transformer和CTC的模型。在我们的业务场景中,最终Chain Model的字准率比第三方合作厂商高2.4%,比业界通用语音识别引擎高15.1%,端到端模型比Chain Model高3.6%。当前我们线上语音识别服务中上线的是Kaldi Chain Model模型,语音识别服务基于docker和grpc部署,在CPU机器上使用Kaldi中的nnet3-latgen-faster-parallel解码器,1小时大约能解码20小时时长的语音,在GPU机器上使用Kaldi中的batched-wav-nnet3-cuda解码器,在T4 GPU单卡上1小时大约解码240小时时长的语音。

58同城呼叫中心中的电话录音均是单声道的,需要使用说话人分离技术分离出两个说话人各自的录音片段。我们首先使用VAD得到录音文件中每个人声片段,然后使用一个简化的ResNet-34网络得到每个人声片段的向量,最后使用KMeans等聚类算法将语音片段聚类成两类,这样就完成了说话人分离。我们使用分离错误率(DER,Diarization error rate)作为说话人分离的评测指标,自研方法的分离错误率比第三方合作厂商低6.6%,比业界通用语音识别引擎低15.8%。

呼叫中心单声道通话录音需要经过说话人分离和语音识别两个步骤得到两个说话人的对话文本,并进一步利用NLP技术识别出说话人的角色,如哪个是坐席、哪个是用户。双声道录音由于两个说话人的角色已知,仅需经过语音识别处理即可。在得到两个角色的对话文本后,我们即可进行语义标签挖掘,主要包括单句内容标签、基于对话上下文的标签两大类,我们使用了TextCNN、DSSM、Bi-LSTM+CRF等基础模型来完成文本分类、匹配和序列标注等任务,也逐步引入了BERT、SPTM(2019年5月自研轻量级预训练语言模型,已开源,参见 qa_match更新啦——支持轻量级预训练、提高问答通用性)、ALBERT等预训练语言模型。

应用

在呼叫中心沟通场景,我们基于语音分析平台搭建了销售和客服语音质检系统,销售和客服人员的所有通话录音会经过语音分析平台提取出质检标签,如辱骂、推诿、过渡承诺、无开场白等,然后将包含这些标签的问题录音交给人工质检员进行复检。传统纯人工质检非常低效,为了完成质检任务,质检员往往需要从头到尾听完一通录音,甚至在某些录音片段处要反复听以确认问题,一般单人日均仅能听取3~4小时的录音,若采用这种方式实现58呼叫中心的全量语音质检,需要超过一千名的质检人力,成本极高。在实际场景中,问题录音往往只占少数,如果智能质检算法召回和准确效果足够高,能够提取出全部问题录音,也只需配置少量的质检人力来完成复检工作。除语音质检之外,我们还可以基于语音通话数据落地更多AI应用,如预测用户是否投诉、自动生成通话文本摘要、销售线索打分等,可以有效提高销售客服工作效率和服务质量。

在C端用户和B端商家沟通场景,基于语音分析平台我们可以构建更加精准的用户画像,传统的用户画像一般是基于用户行为动作如点击、收藏、分享等行为来做数据统计,相比这些行为动作,用户在电话沟通中直接表达出的意向更具有代表性,例如用户在58同城上看到一套房源,如果他很有兴趣会给经纪人拨打电话,在电话沟通过程中会表达自己的购买意向,同样经纪人也会回答用户的咨询,描述房源信息等,这样便可以提取出用户画像、帖子画像数据,甚至评价经纪人回复咨询的能力等。这些基础数据可以应用在上层的智能推荐、信息治理和经纪人话术评分等应用中。

总结

智能语音分析平台打开了58技术的另一扇门,使得我们在语音语义这一领域有广阔的发挥空间,未来我们将在语音上持续基于垂直业务场景数据优化端到端系统,着重解决口语化、嘈杂环境的识别等,在语义上结合预训练、文本语音多模态等技术持续提高算法效果,并落地更多智能语音应用,为58业务创造价值。

詹坤林


TEG技术工程平台群AI Lab负责人,算法资深架构师,技术委员会AI分会主席


关注NLP、推荐、语音等方向,目前主要负责AI Lab团队管理工作,致力于推动AI技术在58的落地,打造AI中台能力。AI Lab目前负责的产品包括智能客服、语音机器人、智能营销系统、智能写稿、语音分析平台、语音识别、AI算法平台等

PPT下载

关注“58技术”公众号——关于我们——添加小秘书微信(jishu-58)备注“58同城智能语音分析平台”即可获取。

录像回看

视频链接:https://v.qq.com/x/page/r3128765zbd.html

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存